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摘要 : 

[目的 ] 量 化 低 资源 语言 平行 语 料 的 句 对 齐 评 分 获取 高 质量 平行 语 料 提升 机 器 翻译 的 性 能 。 
方法 ] 提 出 基于 神经 网 络 的 无 监督 句 仍 入 双语 平行 语 料 句 对 齐 评分 方法 NeuroAlign: 将 平行 
名 对 和 入 至 同一 向 量 空间 ， 计 算 平 行 语 料 中 给 定 候选 句 对 的 对 齐 评分 ， 然 后 根据 评分 排序 过 
滤 分 值 较 低 的 平行 句 对 ， 获 得 高 质量 的 低 资 源 语言 双语 平行 语 料 。 

[结果 ]BUCC2018 平行 文本 挖掘 任务 中 Fl 值 可 提升 0.5-0.8; CCMT2021 低 资 源 语言 神经 机 
器 翻译 中 BLEU 值 可 提升 0.1-10.9; 句 对齐 评分 可 接近 人 工 评 分 。 
[局 限 ] 限 于 低 资源 双语 平行 语 料 的 资源 医 乏 ， 未 在 藏 汉 、 维 汉 、 蒙 汉 以 外 的 语言 对 上 进行 探 
索 研究 。 
[结论 ] 可 以 有 效应 用 至 低 资源 语言 平行 语 料 的 名 对齐 评 分 ， 从 数据 源 端 提升 语 料 质 量 ， 进 而 
改进 机 器 翻译 的 效果 。 
关键 词 : 机 器 翻译 ， 低 资源 语言 ， 平 行 语 料 ， 句 对 齐 评 分 
分 类 号 : TP393，G250 

DOI: 10.11925/infotech.2096-3467.2024.0065 


~ 


] 


Parallel Corpus Sentence Alignment 
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Abstract: 
[Objective] This paper aims to quantify the sentence alignment scores of low-resource parallel 
corpora to obtain high-quality parallel corpora, improving machine translation performance. 
[Methods] We propose NeuroAlign, a neural network-based unsupervised sentence embedding 
method for scoring bilingual parallel sentence alignment. Parallel sentence pairs are embedded 
into the same vector space, and alignment scores for given candidate sentence pairs in the parallel 


corpus are calculated. Based on these scores, low-scoring sentence pairs are filtered out, resulting 
in high-quality bilingual parallel corpora for low-resource languages. 


[Results| In the BUCC2018 parallel text mining task, the Fl score can be improved by 0.5-0.8. 
In the CCMT2021 low-resource language neural machine translation task, the BLEU score can be 
improved by 0.1-10.9. The sentence alignment scores can approach human evaluation. 

[Limitations] Due to the scarcity of low-resource bilingual parallel corpora, research has not 
been conducted on language pairs other than  Tibetan-Chinese, Uyghur-Chinese, and 
Mongolian-Chinese. 

[Conclusions] This method can be effectively applied to sentence alignment scoring for 
low-resource language machine translation parallel corpora, improving the quality of the data 
source, and thereby enhancing machine translation performance. 

Keywords : Machine Translation; Low-Resource Language; Parallel Corpus; Sentence 
Alignment Scoring 


1 引言 


机 器 翻译 系统 训练 需要 大 量 语义 相同 的 双语 平行 文本 语 料 ( 人 简称 平行 语 料 )， 
通常 认为 平行 语 料 规 模 越 大 机 器 翻译 的 效果 越 好 。 事 实 上 ， 除 了 数据 规模 外 ， 平 
行 语 料 的 其 他 质量 因素 也 会 对 机 器 翻译 性 能 产生 影响 巾 ， 如 : 领域 分 布 、 名 对齐 
质量 等 。 研 究 表明 ， 统 计 机 器 翻译 (Statistic Machine Translation, SMT) 中 平行 
语 料 的 对 齐 错 误会 影响 系统 性 能 所 ;神经 机 器 翻译 (Neural Machine Translation, 
NMT) 中 平行 语 料 之 间 的 未 翻译 和 错位 对 系统 性 能 影响 更 大 Bl。 因此 , 平行 语 料 
的 句 对 齐 质量 是 影响 机 器 翻译 系统 性 能 的 重要 因素 之 一 。 

早期 基于 特征 工程 的 平行 语 料 句 对 齐 技术 取得 了 一 定 成 功 , 但 这 种 方法 相对 
繁琐 ， 且 捕捉 到 的 特征 不 一 定 准 确 ， 从 而 会 影响 后 期 的 翻译 效果 。 随 着 NMT 的 
发 展 , 句 对 齐 任 务 受到 的 关注 虽 不 如 SMT 以 及 一 些 监督 和 半 监 督 NMT 方法 高 ， 
但 并 不 意味 着 平行 语 料 的 句 对 齐 质 量 对 机 器 翻译 的 影响 减 小 了 。 在 当前 流行 的 

“ 预 训练 + 微调 ”研究 范 式 下 ， 尽管 大 规模 预 训练 语言 模型 在 机 器 翻译 任务 上 
表现 出 色 ， 看 似 减少 了 对 平行 语 料 的 依赖 。 但 是 ， 目 前 除了 中 文 、 英 文 等 资源 丰 
富 的 语言 外 ,世界 上 绝 大 多 数 语 言 都 缺乏 大 规模 、 高 质量 的 平行 语 料 ， 大 部 分 语 
言 仍 存在 平行 语 料 稀缺 的 现实 困境 , 即便 是 现 有 的 一 些 低 资源 语言 可 以 通过 少量 
的 平行 语 料 微调 训练 ， 也 要 保证 这 些 平行 语 料 的 数据 质量 。 

通过 对 CCMT20211 低 资源 语言 平行 语 料 分 析 发 现 ， 即 便 是 官方 公布 的 质量 
较 好 的 平行 语 料 ， 也 不 免 存 在 未 对 齐 、 未 翻译 、 语言 错 误 、 翻 译 错误 、 断 句 错误 、 
编码 错误 等 问题 。 因 此 ， 本 文 受 平行 语 料 挖掘 任务 的 启发 ， 针 对 上 述 平行 语 料 中 
出 现 的 未 对 齐 问题 , 提出 了 一 种 基于 神经 网 络 的 无 监督 句 艇 入 双语 平行 语 料 句 对 
齐 评分 方法 0-8]JNeuroAlign (Neural Network-based Sentence Embedding Alignment Scoring 
Method for Bilingual Parallel Corpora, 简称 NeuroAlign) , 骨 在 评价 双语 平行 语 料 的 句 对 
齐 质量 ， 期 望 通过 评分 为 低 资 源 语言 机 器 翻译 进行 语 料 筛选 。 

该 方法 首先 将 双语 平行 语 料 散 入 至 同一 问 量 空间 ， 通 过 计算 源 语言 (Source 
Language, S) 和 目标 语言 (Target Language; T) 给 定 候 选 句 对 的 余弦 相似 度 (给 
定 候选 余弦 )， 与 其 最 邻近 的 上 个 候选 余弦 〈 邻 近 候 选 余 欧 ) 之 间 的 比率 差 值 来 
判断 两 个 句子 的 对 齐 程度 。 同 时 ， 对 平行 句 对 进行 了 句 长 惩罚 ,使 过 短 或 过 长 的 
句子 在 计算 句 对 齐 评分 时 不 会 占据 过 大 的 优势 或 劣势 。 实 验证 明 , 该 方法 在 高 资 
源 语 言 平 行 语 料 挖掘 、 低 资源 语言 神经 机 器 翻译 和 句 对 齐 评 分 三 个 任务 上 均 表 现 
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1 第 十 七 届 全 国 机 器 翻译 大 会 (The 17th China Conference on Machine Translation, CCMT2021) 
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2 相关 工作 
2.1 平行 语 料 对 齐 

早期 的 平行 语 料 获 取 方 式 主要 通过 高 度 工程 化 的 系统 收集， 后 期 的 方法 则 
侧重 于 文本 内 容 ， 可 以 通过 基于 知识 的 语 料 收集 ”"、 平 行 语 料 挖掘 “等 方法 来 获 
取 ， 其 中 名 对 齐 方 法 属 平行 语 料 挖掘 的 方法 之 一 。 

句 对 齐 任 务 是 指 从 平行 语 料 中 识别 一 个 句子 与 男 一 种 语言 句子 之 间 的 对 应 
关系 。 通常 会 先 定义 一 个 对 齐 的 评分 函数 ,然后 使 用 动态 规划 算法 "最 大 化 全 局 
对 齐 分 数 ， 输 入 是 一 对 文本 ， 输 出 是 句子 之 间 的 假设 对 齐 方式 。 早 期 的 对 齐 方 
法 主要 基于 统计 特征 信息 ， 如 : 句 长 "””、 词 汇 "" 或 部 分 信息 对 齐 ”。 基 于 
词汇 的 方法 容易 受到 语言 的 限制 , 不 同 的 语言 需要 提取 不 同 的 特征 ， 基于 句 长 的 
对 齐 方法 在 句子 长 度 相同 的 情况 下 表现 不 佳 。 随 着 深度 学 习 发 展 ， 出 现 了 基于 
神经 网 络 的 对 齐 方 法 ”””， 并 取得 了 很 好 的 效果 ， 其 核心 思想 是 利用 嵌入 空间 
和 句 量 的 相似 度 来 进行 对 齐 ”””， 但 具体 的 散 入 方法 和 对 齐 算 法 各 有 不 同 。 

Melvin Johnson 等 采用 多 语言 句 舱 入 来 编码 多 种 语言 ， 训 练 多 语言 机 器 翻 
译 (包含 一 对 多 、 多 对 一 、 多 对 多 )， 编 码 时 需要 在 每 一 种 语言 前 加 入 一 个 语言 
标签 来 区 分 不 同 语言 。Schwenk” 没 有 使 用 特殊 的 输入 标记 来 指示 不 同 的 目标 语 
言 ， 而 是 通过 共享 编码 器 学 习 了 联合 多 语言 句 典 入 , 将 9 种 语言 的 完整 句子 能 入 
到 联合 空间 , 并 使 用 不 同 语言 句子 之 间 的 距离 闵 值 来 过 滤 和 挖掘 不 同 语言 对 之 间 
的 平行 语 料 。 与 之 前 方法 不 同 的 是 , 本文 侧 重 于 用 人 句 对 齐 方法 来 实现 对 双语 平行 
语 料 的 句 对 齐 量化 评分 , 期 望 通过 评分 的 方式 为 低 资 源 语 言 机 器 翻译 进行 语 料 筛 
选 ， 从 数据 源 端 提 升 机 器 翻译 的 效果 。 


2.0 ” 句 对 齐 评分 指标 


平行 语 料 的 句 对 齐 评 分 可 以 采用 人 工 评 估 或 自动 评估 两 种 方式 ， 其 中 自动 
评估 分 为 以 下 两 种 情况 : 

第 一 种 ， 已 知 有 nm 对 相互 翻译 的 词 、 句 、 篇 章 时 ， 平行 语 料 的 对 齐 评分 通 
常 以 准确 率 〈Precision)、 人 召回 率 (Recall)、F1 f (Fl-score) 来 判断 效果 。 
第 二 种 ， 无 法 确定 翻译 的 词 、 句 、 篇 章 数 量 时 ， 采 用 一 些 间接 的 指标 来 给 
定 对 齐 评分 , 如 :译文 评价 指标 (如 : Bilingual Evaluation Understudy, BLEUP?!), 
余弦 相似 度 等 。 

Moore ", Varga ^ 等 采用 了 翻译 对 齐 的 思想 , 将 两 个 文档 转换 为 同一 语言 ， 
并 引入 修正 后 的 机 器 翻译 译文 评价 指标 BLEU 来 判断 文本 对 齐 效果 或 挖掘 出 平 
行 语 料 5-6. 19-20 , 
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齐 程度 。Artetxe 和 Schwenk" 认 为 这 种 对 齐 方 法 会 产生 余弦 相似 度 得 分 范围 不 
一 致 的 问题 ， 即 对 齐 错 误 的 句子 比 对 齐 正确 的 句子 具有 更 大 的 余弦 相似 度 ， 
从 而 不 利于 用 固定 阐 值 来 过 滤 句 子 ， 因 此 研究 者 们 提出 了 不 同 的 基于 余弦 相 
似 度 的 修正 评分 ""。 本 文 在 Artetxe 和 Schwenk“ 提 出 的 算法 基础 上 ， 分 别 对 
源 语 言 和 目标 语言 名 向量 进行 了 平滑 ,在 向 量 空 间 中 拉 近 了 给 定 候选 余弦 与 邻 
近 候 选 余弦 之 间 的 比率 差 值 ， 从 而 对 名 对 齐 质量 进行 了 更 为 严格 的 评分 。 


3 研究 内 容 

本 文 提 出 了 基于 神经 网 络 的 无 监督 名 嵌入 双语 平行 语 料 句 对 齐 评 分 方法 。 首 
先 ， 采用 神经 网 络 的 句 嵌 入 方法 ， 将 平行 句 对 嵌入 至 同一 向 量 空间 ,然后 ,计算 
平行 语 料 的 句 对 齐 评分 , 再 根据 评分 排序 过 滤 对 齐 评分 较 低 的 平行 句 对 ， 以 此 来 


pE E. PAN ` E ` A4— > Wb MZ n y E E; 一 一 
获取 相对 高 质量 的 低 资 源 语言 双语 平行 语 料 数 据 集 。 具 体 流 程 如 图 1 所 示 。 
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图 1 低 资源 平行 语 料 句 对 齐 流程 图 


Fig.1 Flowchart of Sentence Alignment for Low-resource Parallel Corpus 
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图 2 Transformer 模型 架构 
Fig.2 Architecture of Transformer Model 
NMT 是 一 种 序列 到 序列 的 生成 问题 ， 通 过 深度 神经 网 络 模型 来 实现 源 语言 
到 目标 语言 的 自动 翻译 。NMT 模型 由 编码 器 (Encoder) 和 解码 器 (Decoder) 组 
成 ,其 中 , 编码 器 将 源 语言 句子 x =(w,w%,…,%,) 编码 为 一 个 连续 向 量 ， 解 码 器 将 该 


向 量 作为 输入 ,生成 目标 语言 的 翻译 结果 y= WVV) NMT 的 模型 训练 使 用 
了 大 规模 的 双语 平行 语 料 ， 通 过 最 大 化 目标 语言 句子 的 概率 优化 模型 参数 0 : 


T: 
POy|x)=[ [P0 yy vo x9) D 
fat 


主流 的 神经 网 络 模型 包括 循环 神经 网 络 (Recurrent Neural Network, RNN), 
卷 积 神经 网 络 CConvolutional Neural Network，CNN )、 基 于 注意 力 机 制 (Attention 
Mechanism) 的 Transformer2o 模 型 等 。 本 文采 用 了 广泛 使 用 的 Transformer 模型 ， 
该 模型 引入 了 自 注意 力 机 制 〈Self-attention) 和 多 头 自 注意 力 机 制 CMulti-head 
Self-attention )， 用 于 更 好 捕捉 句子 的 上 下 文 信息 。Transformer 同样 遵循 了 编 - 解 
码 架 构 ， 其 中 分 别 对 编码 器 和 解码 器 进行 多 层 堆 疼 ， 如 图 2 所 示 。 

图 2 中 的 每 一 个 编码 器 包含 两 个 子 层 : 多 头 自 注意 力 层 (Multi-head 
Self-attention) 和 前 馈 神经 网 络 层 (Feed Forward Neural Network)， 每 一 个 子 层 
都 加 入 了 残 差 连接 (Residual Connections). 和 层 归 一 化 (Layer Normalization). 
解码 器 除了 与 编码 器 相同 的 两 个 子 层 外 ， 还 新 插入 了 一 个 编码 器 -解码 器 注意 力 
层 CEncoder-Decoder Attention) 作用 于 编码 器 的 输出 。 解 码 器 同样 在 每 个 子 层 外 
使 用 了 残 差 连接 和 层 归 一 化 。 
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图 3 多 语言 句 典 入 模型 架构 
Fig.3 Multilingual Sentence Embedding Model Architecture 
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不 同 语言 句子 之 间 的 语义 距离 来 过 滤 或 挖掘 不 同 语言 对 之 间 的 平行 语 料 。 本 文 的 
多 语言 句 坐 入 模型 采用 了 开源 工具 LASER*， 该 系统 使 用 单个 双向 长 短 时 记忆 
(Bidirectional Long Short-Term Memory, BILSTM) 编码 器 ， 该 编码 器 不 受 语言 
限制 , 没有 输入 或 输出 语言 的 任何 信号 , 并 对 所 有 语言 共享 了 40k 的 字 节 对 编码 
(Byte Pair Encoding, BPE) WR; 解码 器 在 每 个 时 间 步 又 都 接受 帜 入 的 输出 
语言 ID 。 编 码 器 与 辅助 的 解码 器 结合 ， 在 多 个 语言 对 上 同时 训练 了 一 个 序列 到 
序列 的 系统 ， 模 型 架构 如 图 3 所 示 。 训 练 结 束 后， 丢弃 解码 器 ， 通 过 对 所 有 编码 
器 输出 状态 最 大 池 化 来 获得 定 长 向 量 的 句子 表示 。 该 方法 使 用 了 固定 维度 , MYI 


2 https://github.com/facebookresearch/LASER 


练 阶段 确定 句子 表示 , 在 不 反 向 传播 到 预 训练 模型 的 情况 下 对 特定 下 游 任务 进行 
微调 。 这 种 方法 在 多 种 语言 上 进行 了 联合 编码 ， 具 有 跨 语言 一 致 性 ， 可 更 好 的 运 
用 于 平行 语 料 的 挖掘。 


3.3 ”对 齐 评分 


(1) 对 齐 评分 

为 了 克服 余弦 相似 度 得 分 范围 不 一 致 的 问题 ，Artetxe 和 Schwenk" 提 出 了 
基于 余弦 相似 度 的 差 值 评分 方法 ， 该 方法 主要 考虑 了 给 定 候选 句 对 的 余弦 相 
似 度 〈 给 定 候选 余弦 ) 与 其 最 邻近 的 个 候选 余弦 相似 度 ( 邻 近 候选 余弦 ) 之 
间 的 比率 差 值 。 计 算 公 式 如 下 : 


score(x, y) = 


cos(x, y) 


(2) 
zNa) 2k zN, 0) 2k 
ERP, NN, (x) 表示 源 语言 句 向 量 x 的 k 个 邻近 目标 语言 句 向 量 y (不 包 
含 重复 句 )，NN,(y) 表 示 目 标语 言 句 向 量 y 的 k 个 邻近 源 语言 句 向 量 x， 一 般 
设 定 k=4。 


score(x, y) = Soay] xLP (3) 


g(x,y) 
其 中 : 
cos(x, x cos(x,u cos(v, cos(y, y 
ene p en. p men. po p En o 
X€NN, (x) ueNN, (x) veNN, (y) YeNN,(y) 


公式 2 的 差 值 越 大 表示 句 对 齐 评分 越 高 ， 即 两 种 语言 的 句子 在 语义 上 更 
加 接近 。 由 于 在 同一 向 量 空间 中 邻近 候选 之 间 不 总 聚集 ， 如 图 4 中 向 量 y 的 目 
标 邻 近 候 选 余弦 ?2xz ， 因 此 ， 我 们 对 公式 2 进行 了 改进 ， 详 见 公 式 3-4. 


向 量 空间 
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Ed 4 藏 汉 双语 句 嵌 入 向 量 示例 
Fig.4 Example of Tibetan-Chinese Bilingual Sentence Embedding Vectors 
73 TERATE P br VE Z8 XE M RA ADEL RR ASSAI ZEE. RIAA 
语言 和 目标 语言 分 别 进 行 了 平滑 修正 ， 在 邻近 候选 余弦 中 加 入 了 给 定 源 语言 
和 目标 语言 句 向 量 与 自身 邻近 候选 句 向 量 〈 候 选 句 向 量 中 ， 不 包含 源 语 言 和 


目标 语言 句 向 量 本 身 ) 之 间 的 余弦 相似 度 ， 详 见 公 式 3 和 4， 其 中 候选 示例 如 
5 所 示 。 此外， 公式 3 还 对 平行 句 对 进行 了 句 长 惩罚 (Length Penalty, LP). 


rar FS)ge nee hag rangira tieu T 52 laž Sof 
标语 言 (TD): 中 共 中 央 要 对 建设 提供 总 计 1521 亿 元 的 资金 。 


| Sr serra" ya angaia ier T 52 laž gaa] | | Si sg asp ga ra i a gl 52 lag gerit] 
| 0.883 gr ner riis era irai efti Barat ees 103 2a tf i 110.693 今年 中 央 财 政要 从 教育 上 投入 。 

| E 110,603 今年 中 央 财 政 对 “三 农 ” 支 出 了 5625 亿 元 。 

| 0.848 s Sepa 107 6r 15 62i ts] | | 0.688 这 过 程 中 。 中 央 财 政 超收 4168 亿 元 。 

0.843 3&riteime ge Se yiicaneii ne gd 1682 aerae a] 110.678 扩建 和 新 建国 家 石油 储备 基地 。 


选 1 市 区 让 员 要 对 建设 提供 总 计 1521 亿 元 的 资金。 中共 中 央 要 对 建设 提供 总 计 1521 亿 元 的 资金 。 
| 0.573 gapapa gysara Ng Raa attt 今年 中 央 给 了 廉 租 住房 制度 建设 的 资金 68 亿 元 。 
| FE aaraa ara] nO. 今年 中 央 财 政 安排 了 832 亿 元 。 
0.568 Tas sa a rege] 52 la£q eit | i 0.808 今年 中 央 财 政 安 排 了 2762 亿 元 。 

110.807 计划 增加 中 央 预 算 稳定 调节 基金 1032 亿 元 。 


| 0.516 ria 人 Dy Slug rers gris 


DS 


5 给 定 候选 句 对 和 邻近 候选 句 对 示例 


Fig.5 Example of Given Candidate Sentence Pairs and Nearby Candidate Sentence Pairs 
(2) 句 长 惩罚 

实验 发 现 使 用 句 对 齐 评分 后 , 一些 极 短 句 的 对 齐 评分 相对 较 高 ， 长 句 的 对 
齐 评分 则 相对 靠 后 ， 导 致 通过 评分 排序 过 滤 句 对 齐 质 量 较 差 的 句子 时 ， 长 句 
更 容易 被 过 滤 。 我 们 认为 数据 集中 过 长 或 过 短 的 句子 比例 失衡 对 机 器 翻译 模 
型 有 一 定 干扰 。 


表 1 藏 汉 平行 句 对 的 对 齐 评分 示例 


Tablel Alignment Scores for Tibetan-Chinese Parallel Sentence Pairs 


平行 句 对 不 考虑 句 长 ” 考虑 句 长 

Siaq gra KD AAA ESI 

j l i RSS T TE 
工 要 发 展 高 新 技术 产业 。 
S:a iai NN rr A a gr meer 0.86 0.77 
T: 进 一 步 优 化 了 财政 出 入 和 政府 投资 体系 。 l 
Siapa jinge] EIEN NARSA YEA AE 
Rania SrA gf E " & * "age rag: NE Ñ 

ü Aree TAS “aas 0.85 1.89 


人 重点 要 建设 一 部 分 国家 实验 室 、 国 家 工程 中 心 、 面 向 企业 的 创新 支撑 平 
台 和 企业 技术 中 心 。 
因此 ,为 了 消除 句子 长 度 的 干扰 ， 本 文 对 所 有 给 定 平 行 句 对 进行 了 句 长 惩 
罚 ， 通 过 惩罚 使 过 短 或 过 长 的 句子 在 计算 对 齐 评分 时 不 会 占据 过 大 的 优势 或 
2335, 详 见 公式 5。 


IP=) 
上 式 中 zP 指 给 定 平行 句 对 的 平均 长 度 占 整体 平行 语料库 平均 长 度 的 比重 。 
其 中 ， 分 子 /是 给 定 候选 平行 句 对 的 平均 名 长 ， 分 母 7 是 语料库 中 所 有 平行 句 对 
的 平均 名 长 。 表 1 给 出 了 考虑 长 度 因素 后 句 对 齐 的 评分 示例 ,可 以 看 出 长 度 惩罚 


降低 了 短 句 评 分 , 提升 了 长 句 评分 , 进而 使 语 料 中 短 句 和 长 句 在 进行 句 对 齐 评分 
时 更 加 客观 , 不 至 于 将 更 多 的 高 分 集中 到 贡献 度 较 低 的 短 句 。 需 要 注意 的 是 后 续 
实验 部 分 我 们 只 在 机 器 翻译 相关 的 任务 中 使 用 了 该 项 。 
(3) Sup 

在 生成 目标 邻近 候选 名 对 时 , 我 们 采用 了 与 Artetxe 和 Schwenk 相同 的 四 种 
策略 。 其 中 ， 

前 向 检索 :每 个 源 语言 句子 恰好 与 一 个 得 分 最 高 的 目标 句子 对 齐 ， 有 些 目 标 
句子 可 能 与 多 个 语言 句 对 齐 ， 也 可 能 没有 。 

后 向 检索 : 与 前 向 策略 相同 ， 但 方向 相反 。 

交叉 检索 ,前 向 和 后 向 的 候选 交集 ， 舍 弃 对 齐 不 一 致 的 句子 。 

最 大 检索 : 前 向 和 后 向 候选 的 组 合 ， 选 择 得 分 最 高 的 候选 句 。 


4 实验 任务 及 结果 分 析 


本 文 在 BUCC2018 平行 语 料 挖掘 ?、CCMT2021 机 器 翻译 和 双语 句 对 齐 评分 任务 
上 分 别 进行 了 实验 。 

41 BUCC 平行 语 料 挖掘 

构建 和 使 用 可 比 语料库 (Building and Using Comparable Corpora, BUCC) 是 
为 平行 语 料 挖掘 建立 的 评估 任务 , 指 给 定 两 个 不 同 语言 的 可 比 语料库 ， 从 中 识别 
彼此 翻译 的 句子 对 。 任 务 设 定 挖掘 英语 到 四 种 语言 德语、 法 语 、 俄 语 、 汉 语 ) 
之 间 的 平行 句 对 ， 每 种 语言 包含 15 万 -120 万 句子 ， 分 为 样本 集 、 训 练 集 和 测试 
集 ， 其 中 包含 大 约 2-3% 的 句子 平行 。 

为 了 与 Artetxe 和 Schwenklg 的 结果 对 比 , 我 们 仅 在 英语 -德语 、 英 语 -法 语 平 
行 语 料 按 据 任务 上 进行 了 对 比 , R 2 展示 了 NeuroAlign 方法 在 BUCC2018" 训练 
集 上 的 准确 率 、 召 回 率 和 了 Fl 值 。 

X2 BUCC (20180 平行 语 料 挖掘 实验 结果 
Table2 BUCC (2018) Parallel Corpus Mining Experiment Results 


— 


英语 -德语 英语 -法 语 

差 值 评分 NeuroAlign 差 值 评分 

P R Fl P R Fl P R Fl P R Fl 
前 向 | 952 | 944 . 948 95.4 954 954 924 913 918 0920 92.6 923 
后 同 |952 944 94.8 95.2 95.8 955 923 91.3 918 91.8 93.0 924 
交叉 1953 944 948 95.2 959 95.5 | 924 013 919 924 92.6 92.5 
最 大 |953 944 948 95.2 959 95.6 924 013 919 920 93.0 92.5 
实验 结果 表明 ， 在 英语 -德语 的 平行 语 料 挖掘 任 务 中 ，NeuroAlign 方法 准确 

率 可 保持 在 95% 以 上 ， 召 回 率 可 提升 1-1.5，F1 值 可 提升 0.6-0.8。 在 英语 -法 语 

平行 语 料 挖掘 中 ，NeuroAlign 方法 准确 率 可 保持 在 92% 左 右 ， 召 回 率 可 提升 

1.3-1.7, Fl 值 可 提升 0.5-0.6。 相 比 之 下 ，NeuroAlign 句 对 齐 评分 更 有 助 于 平行 

语 料 的 挖掘 和 算 选 ， 进 一 步 验证 了 该 方法 的 应 用 性 能 。 

由 于 表 2 中 “最 大 ”检索 方法 的 性 能 表现 最 佳 ， 因 此 在 后 续 实验 中 统一 采用 

了 该 检索 方法 来 生成 目标 邻近 候选 句 对 。 


4.2” 低 资源 语言 机 器 翻译 


3 https://comparable.limsi.fr/bucc2018/bucc2018-task.html 


NeuroAlign 


(1) 实验 数据 和 模型 参数 


该 任务 在 CCMT2021 双语 翻译 任务 中 的 藏 汉 、 维 汉 、 蒙 汉 数 据 集 上 进行 了 机 
器 翻译 系统 训练 。 其 中 ， 藏 汉 、 维 汉 、 蒙 汉 的 验证 集 分 别 为 CCMT2017、 
CCMT2018、CCMT2017， 数 据 规 模 详 见 表 3。 其中， 我们 对 藏 语句 子 进 行 了 分 
音节 处 理 ， 对 所 有 汉语 句子 进行 了 分 字 处 理 ， 并 对 所 有 语言 对 进行 了 BPE 处 理 。 


表 3 CCMT2021 训练 数据 集 
Table3 CCMT2021 Training Dataset 


语言 对 原始 数据 去 重 过 滤 
藏 汉 156578 148334 140918 
维 汉 170061 166062 157759 
蒙 汉 255824 250120 237614 


关于 实验 设置 ， 本 文 使 用 的 神经 机 器 翻译 模型 Transformer 来 源 于 Facebook 
的 开源 工具 Fairseq28。 其 中 ,我们 使 用 了 6 层 的 编码 器 和 解码 器 ; 选择 了 Adam 
优化 器 ，betas 参数 设置 为 (0.9，0.98); 学 习 率 为 0.0005，dropout 为 0.3， 批 处 
大 小 为 4096， 所 有 模型 的 最 大 训练 轮 次 均 为 100; 解码 时 Beam size 设置 为 4. 
其 他 参数 采用 了 Fairseq 中 的 默认 设置 。 


(2) 基线 系统 实验 对 比 


我 们 在 四 个 基线 系统 上 进行 了 低 资源 机 器 翻译 的 实验 对 比 ， 每 个 系统 代表 用 
不 同 的 方法 对 低 资 源 语言 对 〈 藏 汉 、 蒙 汉 、 维 汉 ) 进行 句 对 齐 评分 ， 并 根据 评分 
排序 ， 过 滤 评 分 相对 较 低 的 平行 句 对 ， 然 后 在 同一 NMT 模型 架构 上 分 别 训 练 了 
翻译 系统 。 其 中 : 

Baseline: 从 去 重 语 料 中 随机 采样 95% 的 平行 句 对 ; 

Cos: 用 余弦 相似 度 进行 句 对 齐 评 分 ; 

Margin: 用 Artetxe 和 Schwenk“ 的 差 值 评分 方法 进行 句 对 齐 评分 ; 

NeuroAlign: 用 公式 3 进行 句 对齐 评分 ， 此 处 不 考虑 句 长 惩罚 。 

为 了 保证 低 资 源 语言 机 器 翻译 的 语 料 规模 ， 本 文中 我 们 只 过 滤 了 评分 后 5% 
对 齐 质 量 较 差 的 平行 句 对 ， 实 验 结果 如 表 4 所 示 。 

表 4 不 同 对 齐 方法 过 滤 语 料 的 BLEU ff 
Table4 BLEU Scores of Filtered Corpora using Different Alignment Methods 


rs 


Au 藏 汉 维 汉 蒙 汉 
CCMT2018 CCMT2019 | CCMT2018 | CCMT2017 CCMT2018 | CCMT2019 
Baseline 36.8 22.6 37.25 32.62 59.51 41.11 
Cos 36.59 29.85 37.63 31.87 59.37 41.93 
Margin 36.74 27.53 37.84 31.47 59.21 41.44 
NeuroAlign 37.11 33.47 37.91 31.52 59.1 41.18 


从 表 4 可 以 看 出 ， 通 过 语 料 过 滤 的 方式 可 以 提升 NMT 的 性 能 ， 说 明 语 料 的 
对 齐 质 量 对 机 器 翻译 至 关 重 要 。 用 本 文 提 出 的 句 对 齐 评分 方法 过 滤 评 分 较 低 的 句 
d. 系统 的 翻译 性 能 提升 效果 明显 , 这 一 点 在 藏 汉 和 维 汉 机 器 翻译 中 能 够 得 以 验 
证 。 其 中 : 

相 比 于 Baseline, NeuroAlign 评分 方法 在 藏 汉 翻 译 任 务 中 的 BLEU 值 分 别提 


4 https://github.com/facebookresearch/fairseq 


JF f 0.31、10.87， 维 汉 翻 译 任务 中 提升 了 0.66; 250€ CCMT2019 翻译 任务 中 提 
FFT 0.07. 

与 Cos 相 比 , NeuroAlign 评分 方法 在 藏 汉 翻 译 任 务 上 分 别提 升 了 0.52. 3.62, 
维 汉 翻译 任务 上 提升 了 0.28。 

与 Margin 相 比 ，NeuroAlign 评分 方法 在 藏 汉 翻 译 任务 上 提升 了 0.37、5.94， 
维 汉 翻译 任务 上 提升 了 0.07， 蒙 汉 CCMT2017 翻译 任务 上 提升 了 0.05。 总 体 来 
看 ， 在 该 项 任务 中 ， 我 们 提出 的 NeuroAlign 评分 可 以 有 效 过 滤 语 料 质量 较 差 的 
平行 名 对， 提升 翻译 性 能 。 

但 在 蒙 汉 翻 译 任务 中 Baseline 取得 了 较 好 的 翻译 效果 ， 其 他 评分 方法 均 有 不 
同 程度 的 翻译 性 能 下 降 。 为 探究 这 一 原因 ,我 们 对 不 同方 法 评分 后 的 蒙 汉 平行 语 
料 对 比 发 现 ，Baseline 的 训练 语 料 中 ， 短 句 对 随机 均匀 分 布 在 语 料 中 ， 而 采用 名 
对 齐 评分 方法 排序 后 的 语 料 中 ， 通 常 短 句 对 评分 较 高 ， 长 句 对 评分 较 低 。 其 中 ， 
句 长 在 1-5 的 短 句 评分 占据 高 分 ， 从 而 不 易 被 过 滤 , 但 是 这 些 语 料 对 翻译 系统 的 
语义 贡献 不 够 高 ， 且 对 计算 资源 的 利用 不 够 充分 。 

RS 蒙 汉 训 练 语 料 前 1 万 句 中 短 句 对 《〈1-5) 的 平均 名 长 
Table5 Average Sentence Length of Short Sentence Pairs (1-5) in the First 10,000 Sentences of 
Mongolian-Chinese Training Corpus 


方法 平均 名 长 
Baseline 4.10 
Cos 3.32 
Margin 3.09 
NeuroAlign 3.20 
Margin+LP 4.25 
NeuroAlign+LP 4.33 


可 以 从 表 5 看 出 ， 蒙 汉 训 练 语 料 的 前 1 万 个 平行 句 对 中 ，Baseline 短 句 对 的 
平均 名 长 高 于 其 他 系统 的 训练 语 料 ， 而 增加 名 长 惩 祝 后 ， 前 1 万 个 平行 句 对 中 ， 
Margin+LP 和 NeuroAlign+LP 系统 短 句 对 的 平均 名 长 分 别提 升 了 1.16、1.15。 
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句 对 齐 评 分 方法 
图 6 蒙 汉 训练 语 料 前 1 万 句 中 短 句 对 《〈1-5) 的 位 置 分 布 
Fig.6 Distribution of Short Sentence Pairs (1-5) in the First 10,000 Sentences of the 
Mongolian-Chinese Training Corpus 


同样 ， 图 6 展示 了 蒙 汉 训练 语 料 前 1 万 个 平行 句 对 中 短 句 对 的 位 置 索引 ， 可 


以 看 出 ， 短 名 对 在 Baseline 的 训练 语 料 中 随机 均匀 分 布 ， 而 用 Cos. Margin 对 齐 
评分 后 短 句 对 的 分 布 相 对 靠 前 ， 故 而 无 法 按照 评分 排序 对 其 进行 过 滤 。 因 此 ,我 
们 对 句 长 进行 了 惩 刊 ， 意 图 保留 更 多 语义 贡献 较 高 的 句 对 ， 可 以 从 图 6 中 看 出 ， 
增加 长 度 惩罚 后 Margin*LP 和 Remargin+LP 的 短 句 明显 减少 了 。 
因此 ， 有 理由 认为 使 用 句 对 齐 评分 后 ， 通 常 短 句 评分 较 高 ， 长 句 评分 较 低 ， 

在 语 料 过 滤 时 会 删除 过 多 的 长 句 ， 使 得 翻译 系统 对 自然 语言 的 语义 捕获 不 够 丰 
富 , 从 而 降低 了 系统 的 翻译 性 能 .为 了 验证 这 一 影响 ,我 们 在 Margin fll NeuroAlign 
评分 中 加 入 了 句 长 惩罚 ， 并 进行 了 消融 实验 对 比 。 


(3) 消融 实验 对 比 


表 6 消融 实验 BLEU 值 对 比 
Table6 BLEU Scores Comparison in Ablation Experiments 


Au 藏 汉 维 汉 蒙 汉 
CCMT2018 CCMT2019 CCMT2018 CCMT2017 CCMT2018 CCMT2019 
margin 36. 74 27. 53 37. 84 31. 47 59. 21 41. 44 
margin*tLP 37. 24 30. 19 38. 48 32. 39 59.1 41. 74 
remargin 37. 11 33. 47 37. 91 31. 52 59.1 41. 18 
remargin*LP 37. T2 34 38. 11 31. 86 59. 23 41. 53 


从 消融 实验 结果 表 6 可 以 看 出 ， 与 Margin 和 NeuroAlign 的 评分 方法 相 比 ， 
增加 句 长 惩罚 后 ， 藏 汉 、 维 汉 、 蒙 汉 的 翻译 效果 均 有 了 不 同 程 度 的 提升 。 其 中 : 

与 Margin 相 比 , Margin+LP 在 藏 汉 上 分 别提 升 了 0.5、2.66, 维 汉 提升 了 0.64, 
蒙 汉 在 CCMT2017、CCMT2019 翻译 任务 上 分 别提 升 了 0.92、0.3。 

与 NeuroAlign 相 比 ，NeuroAlign+LP 在 藏 汉 上 分 别提 升 了 0.61、0.53， 维 汉 
提升 了 0.2， 蒙 汉 翻 译 任务 上 分 别提 升 了 0.34、0.13、0.35。 上 述 结 果 表 明 ， 句 长 
惩 昼 对 语 料 的 句 对 齐 评 分 有 着 积极 的 影响 ,为 进一步 探究 影响 , 我 们 对 加 入 长 度 
惩 避 因子 前 后 的 语 料 句 长 分 布 进行 了 对 比 。 
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图 7 蒙 汉 训练 语 料 平均 句 长 的 分 布 

Fig.7 Distribution of Average Sentence Length Variation in Mongolian-Chinese Training Corpus 
从 图 7 可 以 看 出 ， 在 NeuroAlign 评分 方法 中 加 入 长 度 惩罚 后 ， 蒙 汉语 料 中 

句 长 为 1-10 的 短 句 减少 了 2422 个 句 对 ， 而 其 他 句 长 区 间 的 句 对 则 分 别 增加 了 

1471、718、128、51、25、8、20。 因 此 ， 句 长 惩罚 的 效果 明显 ， 可 以 有 效 过 滤 

短 句 ， 保 留 相 应 数量 的 长 句 ， 为 翻译 系统 贡献 更 多 语义 完整 的 句子 。 


d 7 中 展示 了 过 滤 的 短 句 示例 ， 这些 短 句 在 NeuroAlign 评分 中 占据 高 分 ， 届 


表 7 过 滤 语 料 示 例 


Table7 Examples of Filtered Corpus 


示例 


score: NeuroAlign:1.07、NeuroAlign+LP: 
S2:0.49 033, 

T2: 0.476, 

score: NeuroAlign:1.06. NeuroAlign-*LP: 


0.58 


0.29 


S1: fS es 

T1: 谁 来 了 ? 

score: NeuroAlign:1.18、NeuroAlign+LP: 
S2: sS adus 

T2: 你 家 中 。 

Score: NeuroAlign:1.14、NeuroAlign+LP: 


0.25 


蒙 汉 


Jour 
后 ， 由 


质量 较 好 的 句子 , 不 易 被 过 滤 ; 但 在 NeuroAlign+LP 评分 中 排 分 则 相对 靠 


S1: V? 

T1: 啊 ? 

score: NeuroAlign:1.06、NeuroAlign+LP: 
S2:tw6! 

T2: 55:2 ! 

score: NeuroAlign:0.91. NeuroAlign-LP: 


0.31 


0.25 


mi 


Pam) 


T 


于 这 些 句 子 携带 的 语义 不 够 丰富 ， 我 们 认为 可 以 被 过 滤 。 


表 8 不 同 消融 系统 的 译文 对 比 


Table7 Translations Comparison of Different Ablation Systems 


语言 译文 对 比 
S gagrag Nagaran re S geo agaran g aeter aant A erigi ger ener 
a T: 务 实 合 作 是 上 海 合作 组 织 发 展 的 物质 基础 和 原动力 。 
译文 1: 开展 有 效 合作 是 上 海 合作 组 织 发 展 的 物质 基础 和 初次 动力 。(NeuroAlign) 
译文 2: 开展 有 成 果 合 作 是 上 海 合 作 组 织 发 展 的 物质 基础 和 首 动力 。(NeuroAlign+LP) 
Se 
"— T:3E E 4E RAE T AGERE HR RIT, ER GR A MT. 
译文 1: 英国 今年 多 次 发 生 暴力 事 件 ， 造 成 严重 人 员 伤 亡 。(NeuroAlign ) 
译文 2: 英国 今年 发 生 多 起 恐 袭 事件 ， 造 成 重大 人 员 伤 亡 。(NeuroAlign+LP) 
G zm GL re ^m wm ff/ om xd sy sd fd on 98 ire m By n 
- T: 这 就 是 我 们 从 小 汽车 换 乘 公共 汽车 的 地 方 。 


译文 1: 这 是 我 们 的 小 汽车 换 乘 公共 汽车 的 地 方 。(NeuroAlign) 
译文 2: 这 是 我 们 从 小 汽车 换 乘 公共 汽车 的 地 方 。(NeuroAlign+LP) 

此 外 ， 可 以 从 表 8 的 消融 实验 示例 看 出 ，j: 
系统 对 源 语言 的 翻译 用 词 更 接近 参考 


BRE SE TIE, NeuroAlign-LP 
译文 ， 如 藏 汉 翻 译 中 ， 将 “原动力 ”翻译 为 


“ 首 动 力 ” 将 “务实 合作 ”翻译 成 “有 成 果 合作 ” CETEDUBIPE TUE RHET 


翻译 为 


AR”. EAN, NFE AAIR E EDEK 


4. ug: 在 蒙 汉 翻译 中 对 “从 ” 


字句 翻译 准确 ， 而 Margin 系统 则 是 捕获 成 了 领 必 关系。 上述 实 验 进 一 步 证 实 了 
名 长 惩罚 因子 对 名 对 齐 评分 的 积极 贡献 。 


4.3. 低 资 源 语言 句 对 齐 评分 
该 任务 对 低 资 源 语言 NMT 的 训练 语 料 进行 了 名 对 齐 评分 。 表 9 以 “最 大 ” 
检索 策略 为 例 ， 将 CCMT2021 中 藏 汉 、 蒙 汉 、 维 汉 所 有 语言 对 上 的 句 对 齐 评 分 
与 大 下 评分 进行 了 了 对比 。 
表 9 CCMT2021 训练 语 料 对 齐 评分 
MSS OP SRUANBIR CORDUS 


方法 藏 汉 维 汉 蒙 汉 

Cos 50.8 39.9 45.8 
Margin 76.9 57.5 64.4 
Margin-LP 71.9 56.9 69.6 
NeuroAlign 67.7 52.5 56.8 
NeuroAlign-LP 68.9 51.9 61.7 


可 以 看 出 ，Cos 句 对 齐 评分 整体 较 低 ，Margin 差 值 评分 时 所 有 数据 集 的 评分 
整体 上 升 , 而 用 本 文 提出 的 方法 评分 后 分 值 又 呈现 出 下 降 趋势 , 说明 我 们 提出 的 
方法 更 接近 于 Margin 差 值 评分 方法 ， 但 评分 更 加 严格 。 

表 10 不 同方 法 在 藏 汉 测试 句 上 的 对 齐 评分 
Table10 Alignment Scores of Different Methods on Tibetan-Chinese Test Sentences 


方法 评分 
Cos 50.5 
Margin 74.1 
NeuroAlign 64.8 
NeuroAlign +LP 81.0 
Human 79.98 


我 们 从 CCMT2021 藏 汉 数 据 集中 人 工 抽 取 了 100 AJ RDSE, BERNA 
未 翻译 、 语 言 错 误 、 翻 译 错误 、 断 句 错误 、 编 码 错误 等 六 类 未 对 齐 现象 ， 每 个 名 
对 至 少 包含 其 中 的 一 类 错误 。 我 们 请 母语 人 对 这 些 测试 句 对 进行 标记 评分 , 每 个 
句 对 总 计 6 分， 出 现 一 类 错误 扣除 1 分 ， 然 后 以 总 得 分 的 百分比 换算 人 工 评分 。 
为 了 保证 人 工 评分 的 客观 性 , 我 们 请 2 名 藏 语 母语 人 同时 进行 了 评分 ， 取 平均 值 
为 最 终 人 工 评分 。 表 10 展示 了 平行 测试 句 对 的 自动 评分 和 人 工 评分 ， 对 比 结果 
发 现 ， 我 们 提出 的 评分 方法 更 接近 人 工 评分 。 


5 结语 


本 文 提 出 了 一 种 基于 神经 网 络 的 无 监督 句 咎 入 双语 平行 语 料 句 对 齐 评分 方 
法 ， 在 平行 语 料 挖掘 、 低 资源 NMT 和 人 句 对 齐 评 分 等 自然 语言 处 理 任务 上 实验 结 
RRI, 我 们 提出 的 评分 方法 可 对 低 资 源 双 语 平行 语 料 的 句 对 齐 质 量 进行 有 效 评 
分 ， 且 根据 评分 排序 过 滤 对 齐 质量 较 差 的 语 料 后 ， 可 以 有 效 提升 NMT 系统 的 翻 
译 性 能 ， 该 方法 在 高 资源 的 平行 语 料 挖掘 中 同样 适用 。 但 是 限于 低 资 源 双语 平行 
语 料 的 资源 匮乏 ， 我 们 未 在 藏 汉 、 维 汉 、 蒙 汉 以 外 的 语言 对 上 进行 更 多 探索 。 此 
外 ,为 进一步 考虑 平行 语 料 数据 质量 对 机 器 翻译 系统 的 影响 , 我 们 认为 句 对 齐 只 
是 平行 语 料 质量 中 的 重要 指标 之 一 ， 其 他 质量 因素 对 机 器 翻译 也 存在 影响 。 未 来 


我 们 将 在 更 多 丰富 的 语言 对 上 进行 探索 , 同时 也 会 对 面向 机 器 翻译 的 语 料 质量 评 
估 做 出 更 多 的 指标 探索 ， 以 期 对 机 器 翻译 的 语 料 质量 评估 起 到 重要 推动 作用 。 
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